参考書一覧
- Foundations of Machine Learning
- 統計的学習理論(MLPシリーズ)
VC Dimension
モデル=仮説集合 Hが存在し、その中で識別器=仮説 h ∈ Hが存在し、これが二値分類をする。データ xに対して、ラベル yがあり、これに分類器 h(x)の出力ができるだけ合致することが望ましく、それが学習である。モデル Hのなかで、1通りの yに対応できることを+1として、その個数を ΠH(x1, ⋯, xn)とおく。ここで、パラメタは連続値であるので理論上は無限通りのℋのパラメタの取り方が存在するが、同じラベル付けyは1通りとまとめる。
データが n個存在するとして、 2nパターンのラベルの付き方が存在する。これについて、 nが小さければΠH(x1, ⋯, xn)=2nが成り立つ。すなわち、ありうるすべてのラベルの付け方 yに対して、パラメタを調節すれば必ずそれを実現する識別器 h ∈ Hが存在するということである。
nが増加していくにあたり、この等式が満たされなくなる=表現力が足りなくなる。この時の最大の nをVC次元という。
Rademacher Complexity
ラデマッハ複雑度とは、ランダムなノイズに対して学習させるとき、モデルがどれほど追随できるか、という量である。大きいほど表現力が高いモデルである。
ラデマッハ変数という、1/2の確率で+1, 1/2の確率で-1を取る確率変数 σを考える。厳密には m個の訓練データ xiが存在するときのラデマッハ複雑度は以下のように定義する。gは学習器であり、Gは学習器の集合=モデル。
R^(G)=Eσ[supg∈Gm1σig(xi)]=Eσ[supg∈GmσTgx] ここで、有限個 m個の訓練データで得られた経験的なラデマッハ複雑度は、訓練データを増やした時には、理想的な分布から得られたときと同じ値になる。つまり、不偏推定量。
R(G)=limm→∞R^(G) Taragrandの補題
R(G)のなかで、 G → ϕ(G)と写像の合成となったときに使える補題。
ϕ : R → Rであり、リプシッツ連続であるとする。この時、リプシッツ定数 Lであるとして、以下の不等式が成り立つ。
R(ϕ(G)) ≤ LR(G) 証明を書く気力はなかった。
McDiarmidの不等式
Pr(f(X1,⋯,XN)−E[f(X1,⋯,XN)]≥ϵ)≤exp(−∑i=1Nci22ϵ2) ciは次の条件を満たす。 Xiを同じく分布に従う別の確率変数 Yに変えた時、 fの取る値との差の上界にあたる。
ci = supY∣f(X1, ⋯, Xi − 1, Xi, Xi + 1, ⋯, Xn)− f(X1, ⋯, Xi − 1, Y, Xi + 1, ⋯, Xn)∣ ここで、 fが N変数関数であるが、とりわけ xiを引数に取って、識別器による経験平均 ∑i=1Ng(xi)である場合を考える。そして、 ∀x, g(x) ∈ [a, b]と識別器の関数の上界が決まっているのであれば、この式は次のように書くことができる。
Pr(∑i=1Ng(xi)−E[g(x)]≥ϵ)≤exp(−(b−a)22ϵ2N) そして、一般的には 1 − δ以上の確率で○○が成り立つ、という形なので、それに式変形する。
δ=exp(−(b−a)22ϵ2N)logδ=−(b−a)22ϵ2N(b−a)2log(1/δ)=2ϵ2N2N(b−a)2log(1/δ)=ϵ2(b−a)2Nlog(1/δ)=ϵ このことから、 ∀δ, 1 − δ以上の確率で、下式が成り立つ。
∑i=1Ng(xi)−E[g(x)]≤(b−a)2Nlog(1/δ) 特に、写す空間が[0, 1]である場合は、以下のように更に略して書ける。
∑i=1Ng(xi)−E[g(x)]≤2Nlog(1/δ) 一様大数の法則
次に重要な定理として、ラデマッハ複雑度を用いた二値分類識別器 g ∈ Gの期待値を上から抑えられ、不偏推定量からたかだかどれほどずれるのかを評価できる。これは一様大数の法則と呼ばれている。 gは集合 Z → [a,b]への写像。なお、 ∀Z ∈ Zに所属している。また、 Ziはそれぞれ Zと独立同分布に従う。 ∀δ, 1 − δ以上の確率で以下の式が成り立つ。
supg∈G{E[g(Z)]−∑i=1Ng(Zi)}≤2RN(G)+(b−a)2Nlog(1/δ) これを絶対誤差で評価した版は以下である。
supg∈G{∣E[g(Z)]−∑i=1Ng(Zi)∣}≤2RN(G)+(b−a)2Nlog(2/δ) 証明
A(z1,⋯,zn)=supg∈G{E[g(Z)]−N1∑i=1Ng(zi)}とする。
ここで、 Znが Z′となるとする(同様に𝒵に従う値)。この時、1つだけ変更したとき、上界は以下のようになる。中でのsupは、外の符号が負なので、一番外に出すと最小値のinfになる。infに関しては fでなくても、 gにするとinfじゃなくなって少し大きくなるので、符号は≤となれる。
A(z1,⋯,zn)−A(z1,⋯,z′)=supg∈G{E[g(Z)]−n1∑i=1ng(zi)−inff∈G{E[f(Z)]−n1∑i=1n−1f(zi)−n1f(z′)}}=supg∈Ginff∈G{E[g(Z)]−n1∑i=1ng(zi)−E[f(Z)]+∑i=1n−1f(zi)+n1f(z′)}≤supg∈G{E(g(Z))−n1∑i=1ng(zi)−E[g(Z)]−n1∑i=1n−1g(zi)+n1g(z′)}=supg∈G{ng(z′)−g(zn)}=nb−a これにより、マルチンゲールは (b − a)/nとなる。これはどの iに対しても成り立ち、しかも A(z1,⋯,z′)−A(z1,⋯,z′)≤nb−aも成り立つので、全体で言うと
∣ng(z′)−g(zn)∣≤nb−a このことから、先ほどのMcDiarmidの不等式を用いると以下のような集中不等式を得られる。 ∀δ, 1 − δ以上の確率で、以下が成り立つ。A自体に対して不等式を適用しているということに注目。 A(z1,⋯,zn)=supg∈GE[g(Z)]−n1∑i=1ng(zi)であり、この中の gに対してMcDiarmidの不等式を適用するのではない!なお、普通に gで不等式を使うと、 E[g]の評価ができなくなるので、このような評価できるかたちで不等式を使った。
A(Z1,⋯,Zn)−E[A]≤(b−a)2nlog(1/δ) 次に、 Z1, ⋯, Znのみならず、 Z1′, ⋯, Zn′も Zに従う確率変数とする。これを使えば、 E[g]を n個の確率変数に分割できる。つぎに、期待値を外に出すことで、≤の形を作れる。
A(Z1,⋯,Zn)=supg∈G{E[g(Z)]−n1∑i=1ng(Zi)}=supg∈G{EZ1′,⋯,Zn′[n1∑i=1ng(Zi′)]−n1∑i=1ng(Zi)}≤EZ1′,⋯,Zn′[supg∈G{n1∑i=1ng(Zi′)−n1∑i=1ng(Zi)}]=EZ1′,⋯,Zn′[∑i=1nsupg∈G{n1(g(Zi′)−g(Zi))}] ここで、対称性により、 g(Zi) − g(Zi′)も g(Zi′) − g(Zi)も同じ分布を持っている(同じ Zから来ているし、 gも1つである)。だから、符号を自由にflipさせてもいいということになる!符号を自由にflipさせるというのならば、まさにラデマッハ変数じゃないか!あとは三角不等式で評価すればラデマッハ複雑度が出てくる!
E[A(z1,⋯,zn)]=EZ1,⋯,Zn[supg∈G{E[g(Z)]−n1∑i=1ng(zi)}]≤EZ1,⋯,Zn[EZ1′,⋯,Zn′[supg∈G{n1(g(Zi′)−g(Zi))}]]≤Eσ1,⋯,σn[EZ1,⋯,Zn[EZ1′,⋯,Zn′[supg∈G{nσi(g(Zi′)−g(Zi))}]]]=EZ1,⋯,Zn[EZ1′,⋯,Zn′[Eσ1,⋯,σn[supg∈G{nσi(g(Zi′)−g(Zi))}]]]≤EZ1′,⋯,Zn′[Eσ1,⋯,σn[supg∈G{nσig(Zi′)}]]+EZ1,⋯,Zn[Eσ1,⋯,σn[supg∈G{n−σig(Zi)}]]≤Rn(G)+Rn(G)=2Rn(G) このように、上から評価できた!
これを使えば、先ほどのMcDiarmidの不等式から以下の結果が得られる。これこそが、一様大数の法則。
A(Z1,⋯,Zn)=supg∈G{E[g(Z)]−∑i=1ng(Zi)}≤2Rn(G)+(b−a)2nlog(1/δ) 絶対値版に対しては、ここまでの議論で δとしていたものを δ/2に置き換えると、以下の2つの式が得られる。いずれも ∀δ, 1 − δ/2以上の確率で成立する。
supg∈G{E[g(Z)]−∑i=1ng(Zi)}≤supg∈G{∣E[g(Z)]−∑i=1ng(Zi)∣}≤2Rn(G)+(b−a)2nlog(1/δ)supg∈G{∑i=1ng(Zi)−E[g(Z)]}≤supg∈G{∣E[g(Z)]−∑i=1ng(Zi)∣}≤2Rn(G)+(b−a)2nlog(1/δ) この2つの式を足し合わせる事で、2で割ると (1 − δ/2)2 = 1 − δ + (δ2/4) ≥ 1 − δ以上の確率で、
supg∈G{∣E[g(Z)]−∑i=1ng(Zi)∣}≤2Rn(G)+(b−a)2nlog(1/δ)